지역별 뉴스를 확인하세요.

많이 본 뉴스

광고닫기

[인공지능 개척시대] 인공지능에 공정성 점수를 매긴다면

나는 공정한 사람인가? 아마도 누구나 자신이 공정하다고 여길 것이다. 나도 마찬가지다. 질문을 바꿔보자. 내가 얼마나 공정한지 점수를 매길 수 있을까? 답하기 어렵다. 당장 공정성을 점수로 매길 수 있는 것인지부터 의문이 든다. 공정성에 점수를 매기기 어려운 까닭은 아마도 사람마다 공정성을 정하는 기준이 다르기 때문일 것이다. 똑같은 행동을 두고도 사람마다 평가가 갈린다. 그런데도 한 가지 척도를 들이대 누가 얼마나 공정한지 수치화하기란 불가능한 일처럼 여겨진다.   그러면 인공지능은 어떠한가. 어떤 인공지능이 공정한지 판단할 수 있을까. 그 인공지능이 얼마나 공정한지 점수를 매길 수 있을까. 현학적 질문처럼 들릴 수도 있지만, 사실 실무상으로도 무척 중요한 문제다. 예컨대 금융기관이 신용도를 평가하는 인공지능을 도입하려면 그 인공지능이 공정한지 평가할 방법이 있어야 한다. 더욱이 인공지능의 공정성이 점차 개선되고 있는지 확인하려면 수치화할 필요도 있다. 하지만 공정성과 같이 모호한 개념에 점수를 매기는 일은 만만치 않다.   비록 어떤 개념이 지나치게 추상적이거나 주관적이라서 측정하기 어렵더라도 비슷하게라도 추정해야 하는 경우는 많다. 어떤 사람이 얼마나 행복한지는 재기 어렵지만, 행복을 연구하는 심리학자는 여러 기준을 이용해 점수를 매긴다. 국내의 한 경제학자는 기회 불평등의 척도를 재기 위해 ‘개천용’ 지수를 만들기도 했다. 이 지수는 우리 사회에서 ‘개천에서 용이 나오는’ 것이 얼마나 어려운지 측정한다.   마찬가지로 인공지능 연구자들은 인공지능이 얼마나 공정한지 측정하는 지표를 열심히 개발해 왔고, 이미 활용되고 있기도 하다. 한 가지 방법은 인공지능의 정확성이 사람마다 차이가 있는지 확인하는 것이다. 예컨대 회사 출입구에 얼굴인식 인공지능이 설치되어 출입을 관리한다고 생각해 보자. 직원이 안경을 꼈는지, 아니면 머리카락이 얼마나 긴지에 따라 정확도에 차이가 있다면 이는 불공정한 것이다. 정확도가 낮은 직원들은 더 자주 불편함을 겪게 될 것이기 때문이다. 이렇듯 인공지능이 여러 집단에 대해 정확도 차이가 있는지를 기준으로 해 공정성 점수를 매길 수 있다.   하지만 딱히 정답이 없는 경우에는 그러한 방법을 쓰기 어렵다. 챗봇 같은 대화 인공지능의 경우가 특히 그렇다. 여러 인간 평가자들을 뽑아 인공지능과 다양한 대화를 나누고 점수를 매기도록 할 수도 있지만, 그러면 비용이나 시간이 많이 들고, 객관화하기 어렵다는 문제도 있다. 그래서 대화 인공지능의 공정성은 평가하기 쉽지 않다.   사실 인공지능에 공정성 점수를 매기는 문제에 있어 가장 큰 어려움은 우리 세상이 완벽하지 못하다는 점이다. 인공지능은 학습 데이터로부터 배운다. 그런데 그 학습 데이터에는 이미 불공정하고, 불평등하며, 부정의한 세상이 반영되어 있다. 불공정한 학습 데이터로 배운 인공지능이 공정할 것을 기대하는 것은 나무에 올라 물고기를 찾는 격이다.   그래서 두 가지 상반된 주장이 나온다. 어떤 이들은 우리가 사는 세상은 공정하지 못하더라도 인공지능에는 마치 세상이 아름다운 것처럼 가르쳐야 한다고 주장한다. 그래야 인공지능이 공정한 판단을 내릴 수 있다고 한다. 반대로 인공지능에는 우리가 사는 세상 그대로를 가르쳐야 한다고 주장하는 이들도 있다. 실제 세계와는 다른 내용을 학습시키면 오히려 인공지능의 정확성이 떨어지기 때문이다. 두 주장 모두 일리가 있다. 인공지능 학습 데이터가 편향되어서는 안 되겠지만, 편향을 고치기 위해 인공지능의 정확성을 크게 훼손해서도 안 된다. 그 중간에서 적절한 균형점을 찾아야 하는 문제다.   인공지능에 공정성을 가르치는 문제는 아이를 키우는 부모들이 흔히 겪는 고민과 비슷하다. 부모는 아이에게 세상의 추악한 모습을 감추고 싶어 하지만, 다른 한편으로는 불편한 진실을 그대로 보여주는 것이 필요하기도 하다.   우리 사회는 지금 인공지능이라는 갓 태어난 아이를 다 함께 키우고 있는 셈이다. 아이가 잘못되지나 않을까 걱정하는 마음이 적지 않다. 하지만 이제 막 자라나고 있는 인공지능에 지나치게 엄격한 공정성 잣대를 들이대는 것만이 유일한 방법은 아니다. 인공지능이 있는 그대로의 세상을 배우고 익힐 수 있도록 숨통을 틔워 줄 필요도 있다. 인공지능이 공정하게 자랄 수 있도록 애써야겠지만, 너그러운 마음으로 지켜보는 태도도 함께 필요하다. 김병필 / KAIST 기술경영학부 교수인공지능 개척시대 인공지능 공정성 공정성 점수 인공지능 학습 대화 인공지능

2022-10-10

[전문가 칼럼] 인공지능 학습 데이터 전쟁

 최근 인공지능 발전의 주요한 흐름으로 인공신경망의 ‘대용량화’를 손꼽을 수 있다. 지난 10월 마이크로소프트와 엔비디아 사는 5300억 개의 파라미터를 갖춘 초대규모 자연어 생성 인공지능을 발표했다. 기존 유사 인공지능의 용량을 3배 이상 키운 것이다.   이처럼 인공지능의 대규모화가 진행되면서 인공지능 프로젝트의 규모도 커지고 있다. 종래에는 연구자의 아이디어나 기술력이 중요했지만 이제 얼마나 많은 자원을 투입할 수 있는가를 두고서도 경쟁하는 양상이다.   인공지능 경쟁이 격화되면서 새로운 전장(戰場)으로 떠오르는 것이 바로 인공지능 학습 데이터 확보 문제이다. 대규모 인공지능을 학습시키기 위해 수백 기가바이트(GB)가 넘는 데이터가 사용되는 일도 빈번하다. 얼마나 질 좋은 학습 데이터를 확보하는지에 따라 인공지능 성능이 크게 좌우되기도 한다.     그래서 이미 방대한 학습 데이터를 확보한 선행 사업자들은 신규 진입자들의 데이터 확보를 막기 위해 애쓴다.   이러한 다툼은 소송으로도 이어지고 있다. 링크드인(LinkedIn)과 hiQ사 간의 분쟁이 대표적이다. 링크드인은 가입자가 6억 명이 넘는 세계적인 구인·구직 플랫폼이다. 많은 이들이 링크드인에 자신의 이력 정보를 업로드하고 새로운 일자리를 찾는다. 수천만 곳이 넘는 기업이 직원 채용을 위해 링크드인 서비스를 사용한다. 링크드인은 그야말로 채용 관련 데이터의 보고(寶庫)라 할 수 있다.   미국 스타트업 hiQ는 채용 정보분석 인공지능 학습을 위해 링크드인 데이터를 대량으로 내려받아 사용해 왔다. 그러자 링크드인은 hiQ의 접속을 차단했다. 이용자가 허용한 개인정보 사용 범위는 자신의 지인이나 구인 기업이 채용과 관련하여 활용하는 것인데, 그 범위를 초과했다는 것이다.     hiQ의 주장은 정반대다. 그저 웹사이트에 공개된 이력 정보를 사용한 것이니 문제될 것이 없다는 것이다. 양사의 분쟁은 법정으로 이어졌다.   2019년 연방항소법원은 hiQ의 손을 들어주었다. 후발 사업자가 자유롭게 데이터를 확보해서 경쟁할 수 있도록 허용해야 한다는 취지였다.     그러나 지난해 여름 연방대법원은 사건을 파기 환송했다. hiQ가 링크드인의 서비스 이용 약관을 위반한 것이 위법한지 여부를 재심리하라는 것이다.     이 사건의 쟁점은 복잡하고 다면적이다. 링크드인은 이용자의 사생활을 보호하고 개인정보 통제권을 보장할 필요성을 내세운다. 후발 사업자의 무임승차를 제한해야 이용자에게 득이 된다고 한다. 반대로 hiQ는 경쟁의 중요성을 강조한다. 선행 사업자가 데이터를 독점한다면 시장 경쟁을 통한 혁신이 불가능하게 된다는 주장이다.   비슷한 다툼이 여기저기서 이어지고 있다. 애플은 올해 아이폰 운영체제 iOS를 업데이트했다. 이용자가 명시적으로 동의한 경우에만 맞춤형 광고를 위한 이용자 앱 사용 데이터 수집을 허용하도록 바꾸었다. 명목은 이용자 사생활 보호를 강화한다는 것이다.     그러나 페이스북과 같은 모바일 앱 광고 사업자들은 크게 반발했다. 애플이 맞춤형 광고 시장 진출을 본격화하면서, 경쟁 사업자들의 데이터 수집을 막으려 한다는 것이다. 이용자 사생활 보호는 그저 핑계일 뿐이고, 애플이 이미 이용자 정보를 다수 수집해 놓은 상황에서, ‘사다리 걷어차기’를 통해 경쟁자의 사업을 방해한다고 비판한다.  거대 플랫폼과 경쟁 사업자 간의 분쟁이라는 점에서 링크드인 사건과 구도가 유사하다.   기존 법 제도가 새로운 경쟁 환경에 적절히 대응하지 못하는 경우는 적지 않다. 인공지능 학습 데이터에 대해 이처럼 세계적으로 논란이 되는 것도 놀랄 일은 아니다. 하지만 이 문제에서는 여러 가치가 충돌하면서 적절한 균형점을 찾기 쉽지 않은 상태다. 자유로운 기술 혁신과 시장 경쟁 환경을 조성해야 할 필요가 있지만, 기존 사업자의 투자와 지식재산권도 보호해야 한다. 더욱이 이용자에 의한 개인정보 통제권도 보장해야 한다. 세 마리 토끼를 모두 쫓아야 한다. 함께 힘을 모아 지혜롭게 해법을 찾을 수 있기를 기대한다. 김병필 / KAIST 기술경영학부 교수전문가 칼럼 인공지능 데이터 인공지능 학습 학습 데이터 인공지능 경쟁

2022-01-12

많이 본 뉴스




실시간 뉴스